其他
vivo AI 计算平台的 ACK 混合云实践
1
背景
公有云的弹性资源
公有云的高级特性
2
方案
方案选型
整体架构
3
落地实践
注册集群
阿里云 ACK 控制台 <<-->> ACK Stub(部署在阿里云) <<-->> ACK Agent(部署在 K8s) <<-->> K8s apiserver
容器网络配置
云主机加入集群
降低专线压力
4
落地效果
5
未来展望
支持 AI 在线服务通过混合云能力部署到云主机,满足在线业务临时算力需求。 建立一套简单有效的资源申请、释放、续期的流程机制,提升跨团队的沟通协作效率。 针对云主机的成本、利用率进行度量和考核,促使业务方使用好资源。 将云主机申请、加入集群整个流程自动化,减少人工操作,提高效率。 探索云上的高级特性,提升大规模分布式训练的性能。
6